Active target sensing is the task of discovering and classifying an unknown number of targets in an environment and is critical in search-and-rescue missions. This paper develops a deep reinforcement learning approach to plan informative trajectories that increase the likelihood for an uncrewed aerial vehicle (UAV) to discover missing targets. Our approach efficiently (1) explores the environment to discover new targets, (2) exploits its current belief of the target states and incorporates inaccurate sensor models for high-fidelity classification, and (3) generates dynamically feasible trajectories for an agile UAV by employing a motion primitive library. Extensive simulations on randomly generated environments show that our approach is more efficient in discovering and classifying targets than several other baselines. A unique characteristic of our approach, in contrast to heuristic informative path planning approaches, is that it is robust to varying amounts of deviations of the prior belief from the true target distribution, thereby alleviating the challenge of designing heuristics specific to the application conditions.
translated by 谷歌翻译
我们为多机器人任务计划和分配问题提出了一种新的公式,该公式结合了(a)任务之间的优先关系; (b)任务的协调,允许多个机器人提高效率; (c)通过形成机器人联盟的任务合作,而单独的机器人不能执行。在我们的公式中,任务图指定任务和任务之间的关系。我们在任务图的节点和边缘上定义了一组奖励函数。这些功能对机器人联盟规模对任务绩效的影响进行建模,并结合一个任务的性能对依赖任务的影响。最佳解决此问题是NP-HARD。但是,使用任务图公式使我们能够利用最小成本的网络流量方法有效地获得近似解决方案。此外,我们还探索了一种混合整数编程方法,该方法为问题的小实例提供了最佳的解决方案,但计算上很昂贵。我们还开发了一种贪婪的启发式算法作为基准。我们的建模和解决方案方法导致任务计划,即使在与许多代理商的大型任务中,也利用任务优先关系的关系以及机器人的协调和合作来实现高级任务绩效。
translated by 谷歌翻译
以前在外围防御游戏中的研究主要集中在完全可观察到的环境上,在该环境中,所有玩家都知道真正的玩家状态。但是,这对于实际实施而言是不现实的,因为捍卫者可能必须感知入侵者并估计其国家。在这项工作中,我们在照片真实的模拟器和现实世界中研究外围防御游戏,要求捍卫者从视力中估算入侵者状态。我们通过域随机化训练一个基于机器学习的系统,用于入侵者姿势检测,该系统汇总了多个视图,以减少状态估计错误并适应防御策略来解决此问题。我们新介绍性能指标来评估基于视觉的外围防御。通过广泛的实验,我们表明我们的方法改善了国家的估计,最终在两场比赛中的VS-1-Intruder游戏和2-Fefenders-VS-1-Intruder游戏中最终进行了外围防御性能。
translated by 谷歌翻译
机械系统自然地在描述其固有对称性的主束上演变。随之而来的配置歧管分解为对称组和内部形状空间,为许多机器人和生物系统的运动提供了深刻的见解。另一方面,差异平坦的属性已实现了各种机器人系统的有效,有效的计划和控制算法。然而,为任意机器人系统找到平坦输出的实际手段仍然是一个悬而未决的问题。在这项工作中,我们在这两个域之间展示了令人惊讶的新连接,这是首次使用对称性直接使用对称性来构建平面输出。我们为捆绑包的琐碎化提供了足够的条件,其中组变量本身是平坦的输出。我们将其称为几何扁平输出,因为它是均衡的(即保持对称性的),并且通常是全局或几乎全球的,因此通常不受其他平坦输出不享受的属性。在这样的琐碎化中,很容易解决运动计划问题,因为组变量的给定轨迹将充分确定精确实现此运动的形状变量的轨迹。我们为机器人系统提供了部分目录,该目录具有几何扁平输出,并为平面火箭,平面空中操纵器和四极管提供了示例。
translated by 谷歌翻译
近年来,地标复合物已成功地用于无定位和无公制的自主探索,并使用一组受GPS污染的环境中的一组感应有限的限制和沟通有限的机器人。为了确保快速而完整的探索,现有的作品对环境中地标的密度和分布做出了假设。这些假设可能过于限制,尤其是在可能被破坏或完全缺失的危险环境中。在本文中,我们首先提出了一个深入的加强学习框架,用于在具有稀疏地标的环境中,同时减少客户服务器交流的环境中的多代理合作探索。通过利用有关部分可观察性和信用分配的最新发展,我们的框架可以为多机器人系统有效地培训勘探政策。该政策从范围和分辨率有限的接近传感器基于近距离传感器的行动中获得个人奖励,该传感器与小组奖励相结合,以鼓励通过观察0-,1-维度和2维的简单来鼓励地标综合体的协作探索和建设。此外,我们采用三阶段的课程学习策略来通过逐渐增加随机障碍并破坏随机地标来减轻奖励稀疏性。模拟中的实验表明,我们的方法在不同环境之间具有稀疏地标的效率中的最先进的地标复杂探索方法。
translated by 谷歌翻译
我们解决了在室内环境中对于具有有限感应功能和有效载荷/功率限制的微型航空车的高效3-D勘探问题。我们开发了一个室内探索框架,该框架利用学习来预测看不见的区域的占用,提取语义特征,样本观点,以预测不同探索目标的信息收益以及计划的信息轨迹,以实现安全和智能的探索。在模拟和实际环境中进行的广泛实验表明,就结构化室内环境中的总路径长度而言,所提出的方法的表现优于最先进的勘探框架,并且在勘探过程中的成功率更高。
translated by 谷歌翻译
主动映射的传统方法专注于构建几何图。但是,对于大多数真实世界应用程序,可行的信息与环境中的语义有意义的对象有关。我们提出了一种用于主动度量语义映射问题的方法,该方法使多个异质机器人能够协作构建环境地图。这些机器人积极探索以最大程度地减少语义(对象分类)和几何(对象建模)信息中的不确定性。我们使用信息丰富但稀疏的对象模型表示环境,每个模型由基本形状和语义类标签组成,并使用大量现实世界数据在经验上表征不确定性。鉴于先前的地图,我们使用此模型为每个机器人选择动作以最大程度地减少不确定性。通过多种现实世界环境中的多机器人实验证明了我们的算法的性能。所提出的框架适用于广泛的现实问题,例如精确农业,基础设施检查和工厂中的资产映射。
translated by 谷歌翻译
共识算法通过使多个机器人能够收敛到仅使用本地通信的全局变量的一致估计来构成许多分布式算法的基础。但是,标准共识协议可以轻松地由非合作团队成员误入歧途。因此,对于设计弹性分布式算法是必要的,对共识的弹性形式的研究是必要的。 W-MSR共识是一种这样的有弹性共识算法,它允许仅具有通信图的本地知识,而没有用于共享数据的先验模型。但是,给定通信图满足严格的图形连接要求的验证使W-MSR在实践中难以使用。在本文中,我们显示了机器人文献中常用的通信图结构,即基于Voronoi Tessellation构建的通信图,自动产生足够连接的图以拒绝单个非合作团队成员。此外,我们展示了如何增强该图,以拒绝两个非合作团队成员,并为修改进一步的弹性提供路线图。这项贡献将允许在已经依赖基于Voronoi的通信(例如分布式覆盖范围和探索算法)的算法中轻松应用弹性共识。
translated by 谷歌翻译
在二阶不确定的贝叶斯网络中,条件概率仅在分布中已知,即概率上的概率。Delta方法已应用于扩展精确的一阶推理方法,以通过从贝叶斯网络得出的总和产物网络传播均值和方差,从而表征了认知不确定性或模型本身的不确定性。另外,已经证明了Polytrees的二阶信仰传播,但没有针对一般的定向无环形结构。在这项工作中,我们将循环信念传播扩展到二阶贝叶斯网络的设置,从而产生二阶循环信念传播(SOLBP)。对于二阶贝叶斯网络,SOLBP生成了与Sum-Propoduct网络生成的网络一致的推论,同时更加有效且可扩展。
translated by 谷歌翻译
最近的反对抗性系统设计问题促使贝叶斯过滤器的反向发展。例如,最近已经制定了逆卡尔曼过滤器(I-KF),以估算对手的卡尔曼滤波器跟踪估计值,因此可以预测对手的未来步骤。本文和伴随论文(第一部分)的目的是通过提出反向扩展的卡尔曼过滤器(I-EKF)来解决非线性系统中的反过滤问题。在同伴论文(第一部分)中,我们发展了I-EKF(有或没有未知输入)和I-KF(未知输入)的理论。在本文中,我们为高度非线性模型开发了这一理论,该模型采用了二阶,高斯总和和抖动的前向EKF。特别是,我们使用有界的非线性方法来得出二阶EKF的理论稳定性保证。为了解决系统模型和正向滤波器对防御者完全知道的标准I-EKF的限制,我们建议复制核基于Hilbert Space基于空间的EKF,以根据其观察值学习未知的系统动力学,可以用作该动态反向过滤器推断对手的估计值。数值实验证明了使用递归的cram \'{e} r-rao下限作为基准测试的拟议过滤器的状态估计性能。
translated by 谷歌翻译